2021 - 2022 小记 - DoYe's Chaos

两年前的年记里，谈了谈查阅古文献时遇到的一些不便。对于这些不便，也有一些改进方法的设想。也做了一点没有头绪的准备工作，采集了许多字形，以备后用。那时谈改进的设想，谈得非常杂乱。因为一切都晦暗不明，一切都前途渺茫。

用什么方式改进？改进的可行性如何？可行的各个方式，其投入产出比又是如何？业界已经做了多次的尝试，踟蹰不前了近四十余年。这表明了，即使有可行的改进方式，其代价也大到了大家都不愿接受的程度。

岔路纷繁，云遮雾绕。有时看着是正路的，走了几个岔后才发现此路不通。凡此种种，说出来，也配不上除夕的热闹气氛。这次年记，只说说走对了的部分。

资源有限，路径依赖，这两个因素决定了作出的改进须与现有体系兼容。
1. 基于此条件，对采集的字形和 Unicode 收录文字进行完全兼容。校对，补完所有 Unicode 收录的近十万个汉字。做到一字不漏，一一对应。
2. 构建开放的收录系统，保证快速收录新字的同时能够保持兼容性。
人力资源有限，也有其缺陷。这个因素造成了这样一个困境：当有人发起请求要收录新字时，如何确定此新字已收录了？此新字和已收录的哪些字比较相似，可能是其变体？当已收录的字达到十万字规模的时候，已经没人能够记住这么多字形并进行快速处理了。这一困境已在当前的 Unicode 里面造成了许多冗余和杂乱。另外一个困境便是，为这一规模的字库设计一套字体，可能需要一个字体设计公司近十年的时间才能完成。
1. 设计人工智能进行辅助识别：收录与否，相似几何。
2. 设计人工智能进行辅助字体设计，创造出的字体集反向改进 2.a 辅助识别的精度。
缺乏跨平台，异体字兼容输入法。已有的输入法，即使跨平台，但异体字兼容，需具备字体直读，直画能力。
1. 已开发完成 Unix, Linux, Windows 兼容的输入法进行任意文字的输入。前端的字体直读直画，输入法逻辑已然解决。Unix, Linux 系统的 X Window 系统提供了 XIM 协议；现代 Windows 提供了 TSF 服务，均已适配。

改进方法的设计和实现，终于达成逻辑闭环。暂歇一会儿后，以上结果，将陆续发布。

这些改进的未来的愿景：学者们做研究，查文献，不再积年累月，不再穷经皓首。

2021 - 2022 小记

2023-02-16 Thu cjkv cjkv / unicode

Comments